Wang Haihua
🍈 🍉🍊 🍋 🍌
支持向量回归以训练样本集为数据对象, 通过分析输入变量和数值型 输出变量之间的数量关系, 对新观测的输出变量值进行预测。 训练集仍然记为 $$ T=\left\{\left(a_{1}, c_{1}\right),\left(a_{2}, c_{2}\right), \cdots,\left(a_{N}, c_{N}\right)\right\}, $$ 其中, $a_{i} \in \Omega \subset R^{n}, \Omega$ 称为输入空间, 输入空间中的每一个点 $a_{i}=\left[a_{i 1}, a_{i 2}, \cdots, a_{i n}\right]$ 由 $n$ 个属性特征组成; $c_{i} \in R, i=1,2, \cdots, N$ 。
一般线性回归方程的参数估计通常采用最小二乘法, 即求解损失函数 达到最小值时的参数: $$ \min _{w, b} \sum_{i=1}^{N}\left(c_{i}-\hat{c}_{i}\right)^{2}=\sum_{i=1}^{N}\left(c_{i}-b-\sum_{j=1}^{n} \omega_{j} a_{i j}\right)^{2}, $$ 其中, $\hat{c}_{i}(i=1,2, \cdots, N)$ 为第 $i$ 个观测的输出变量预测值, $e_{i}=c_{i}-\hat{c}_{i}$ 为第 $i$ 个预 测的误差。
支持向量回归同样在遵循损失函数最小的原则下进行超平面参数估计 但为降低过拟合风险, 采用 $\varepsilon$-不敏感损失函数。回归分析中, 每个预测的 误差都计入损失函数, 而支持向量回归中, 误差函数值小于指定值 $\varepsilon(\varepsilon>0)$ 的观测给损失函数带来的“损失”将被忽略, 不对损失函数做出贡献。这样的 损失函数称为 $\varepsilon-$ 不敏感损失函数。 所谓 $\varepsilon$-不敏感损失函数, 是指当某观测的输出变量的实际值与其预测 值的绝对偏差不大于事先给定的 $\varepsilon$ 时, 则认为该观测不对损失函数贡献“损 失”,损失函数对此呈不敏感“反应”。
用数学语言描述支持向量回归问题: $$ \min _{\omega, b} \frac{1}{\mathbf{2}}\|\omega\|^{2}+C \sum_{i=1}^{N} L_{\varepsilon}\left(f\left(a_{i}\right)-c_{i}\right), $$ 其中, $C \geq 0$ 为惩罚系数, $f(x)=\omega^{T} x+b, L_{\varepsilon}$ 为损失函数, 其定义为: $$ \boldsymbol{L}_{\varepsilon}(z)=\left\{\begin{array}{lr} 0, & |z| \leq \varepsilon, \\ |z|-\zeta, & \text { 否则. } \end{array}\right. $$
更进一步, 引入松阤变量 $\zeta_{i}, \eta_{i}$, 则新的最优化问题为: $$ \begin{aligned} &\min _{\omega, b, \zeta_{i}, \eta_{i}} \frac{1}{\mathbf{2}}\|\omega\|^{2}+C \sum_{i=1}^{N}\left(\zeta_{i}+\eta_{i}\right), \\ &\text { s.t. }\left\{\begin{array}{l} f\left(a_{i}\right)-c_{i} \leq \varepsilon+\zeta_{i}, \quad i=1,2, \cdots, N, \\ c_{i}-f\left(a_{i}\right) \leq \varepsilon+\eta_{i}, \quad i=1,2, \cdots, N, \\ \zeta_{i} \geq 0, \eta_{i} \geq \mathbf{0}, \quad i=1,2, \cdots, N . \end{array}\right. \end{aligned} $$
类似地, 引入拉格朗日乘子, $\mu_{i} \geq 0, v_{i} \geq 0, \alpha_{i} \geq 0, \beta_{i} \geq 0$, 定义拉格朗日 函数: $$ \begin{aligned} L(\omega, b, \alpha, \beta, \zeta, \eta, \mu, v) &=\frac{1}{2}\|\omega\|^{2}+C \sum_{i=1}^{N}\left(\zeta_{i}+\eta_{i}\right)-\sum_{i=1}^{N} \mu_{i} \zeta_{i}-\sum_{i=1}^{N} v_{i} \eta_{i} \\ &+\sum_{i=1}^{N} \alpha_{i}\left(f\left(a_{i}\right)-c_{i}-\varepsilon-\zeta_{i}\right)+\sum_{i=1}^{N} \beta_{i}\left(c_{i}-f\left(a_{i}\right)-\varepsilon-\eta_{i}\right) . \end{aligned} $$
同样地可以得到其 Lagrange 对偶问题如下: $$ \begin{aligned} \max _{\alpha, \beta} \sum_{i=1}^{N}\left[\varepsilon\left(\beta_{i}+\alpha_{i}\right)-\right.&\left.c_{i}\left(\beta_{i}-\alpha_{i}\right)\right]+\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N}\left(\beta_{i}-\alpha_{i}\right)\left(\beta_{j}-\alpha_{j}\right)\left(a_{i} \cdot a_{j}\right), \\ \text { s.t. }\left\{\begin{array}{l} \sum_{i=1}^{N}\left(\beta_{i}-\alpha_{i}\right)=0, \\ 0 \leq \alpha_{i}, \beta_{i} \leq C, \quad i=1,2, \cdots, N . \end{array}\right. \end{aligned} $$
假设最终解为 $\alpha^{*}=\left[\alpha_{1}^{*}, \alpha_{2}^{*}, \cdots, \alpha_{N}^{*}\right]^{T}, \beta^{*}=\left[\beta_{1}^{*}, \beta_{2}^{*}, \cdots, \beta_{N}^{*}\right]^{T}$, 在 $\alpha^{*}=\left[\alpha_{1}^{*}, \alpha_{2}^{*}, \cdots, \alpha_{N}^{*}\right]^{T}$ 中, 找出 $\alpha^{*}$ 的某个分量 $C>\alpha_{j}^{*}>0$, 则有 $$ \begin{aligned} &\left\{\begin{array}{l} \omega^{*}=\sum_{i=1}^{N}\left(\beta_{i}^{*}-\alpha_{i}^{*}\right) a_{i}, \\ b^{*}=c_{j}+\varepsilon-\sum_{i=1}^{N}\left(\beta_{i}^{*}-\alpha_{i}^{*}\right) a_{i}^{T} a_{j} . \end{array}\right. \\ &f(x)=\sum_{i=1}^{N}\left(\beta_{i}^{*}-\alpha_{i}^{*}\right) a_{i}^{T} x+b^{*} . \end{aligned} $$
参考文献